컴퓨터가 텍스트를 이해하기 위한 첫 번째 단계
가장 보편적으로 사용되는 네 가지 기본 전처리 단계를 통해 텍스트를 정제하는 방법을 알아봅니다.
텍스트에서 분석에 불필요한 노이즈를 제거하는 과정입니다.
정제된 텍스트를 의미 있는 최소 단위인
토큰(token)으로 분절하는 과정입니다.
의미 분석에 큰 도움이 되지 않는,
문법적 기능을 하는 단어들을 제거합니다.
같은 의미를 가진 여러 형태의 단어들을
하나의 기본 형태로 통일하는 작업입니다.
모든 상황에 맞는 완벽한 전처리는 없습니다.
내가 풀어야 할 문제와 사용할 모델에 따라 최적의 전략을 선택해야 합니다.
문장의 의도나 감성을 파악하여 '스팸/정상', '긍정/부정', '뉴스 카테고리' 등
미리 정해진 범주로 나누는 작업입니다.
단어의 순서(문맥)는 무시하고,
문서 내 출현 빈도를 중심으로 특징을 추출합니다.
단어의 순서, 주변 단어와의 관계 속에서
동적인 의미를 파악합니다.
하나의 언어로 된 문장을 다른 언어의 문장으로
의미와 구조를 유지하며 변환하는 작업입니다.
단어와 구문이 통계적으로 어떻게 대응되는지를 학습합니다. 이를 위해 문장 구조를 단순화하는 것이 중요했습니다.
문장 전체의 의미와 문법적 구조를 벡터로 이해하여 번역합니다. 원문의 뉘앙스를 그대로 전달하는 것이 핵심입니다.
챗봇 답변, 문서 요약, 소설 창작 등 주어진 조건에 따라
세상에 없던 새로운 문장을 만들어내는 작업입니다.
학습 데이터의 패턴을 모방하여 문장을 생성합니다.
입력 데이터의 일관성이 결과물의 품질에 큰 영향을 미칩니다.
인간처럼 자연스럽고 창의적인 문장을 만들기 위해,
최대한 많은 언어적 패턴과 뉘앙스를 학습해야 합니다.